文章目录
这是《Python统计分析》系列文章的第一篇,该系列文章致力于使用Python进行一般的统计分析,比如T检验、方差分析、回归分析、主成分、聚类、等等。Python有很多统计包可以帮助我们实现我们的目的,《Python统计分析》系列文章用到的包包括但不仅限于:pandas、numpy、scipy、Statsmodels。很多人都知道我写过所有这些包的教程,而《Python统计分析》系列文章可以把以前的内容综合运用起来,所以需要你对这些模块有一定的了解,但不需要精通。
- 引入相关的模块,ttest_ind是用于独立样本t检验的(independent samples t test),pandas主要用到它的DataFrame
- 读取数据并查看一下数据的前五行
我们可以看到数据包含三列,最后一列group表示不同的组,只有1、2两组
- 我们用到了DataFrame的一个筛选数据的功能,比如筛选1组数据
我们可以得到这样的数据
- 假如现在我们想要比较两组数据在scoreA上是否有差异,我们可以分别筛选得到1组的scoreA和2组的scoreA,然进行t检验
检验的结果得到一个tuple,第一个元素是t值,第二个元素是p值,根据p值就知道两列数据均值差异不显著
- 如果我们想要同时比较scoreA和scoreB也可以,筛选数据的时候加上scoreB即可
结果得到的是tuple构成的tuple,第一个tuple元素表示t值,根据结果我们就知道t(scoreA)=1.366,t(scoreB)=0.601,另一个tuple就不解释了吧
- 当然我们还需要注意,ttest_ind默认两组数据方差齐性的,如果想要设置默认方差不齐,可以设置equal_var=False,下面比较一下这两种情况结果的差异
- 那么,问题来了(挖掘机到底哪家强?),我们用什么检验两组数据的方差齐性呢——levene test
检验结果为p>0.05所以,可以认为方差是相等的。
转载请注明来自DataScience.
邮箱: 675495787@qq.com